EvoClass
AI024
ROCm 与 HIP:详尽的十章教程
AMD GPU 性能工程
课程
第7课
日期
2026年3月31日
讲师
AI 讲师
时长
60 分钟
学习目标
使用 Omniperf 与 ROCProfiler 识别架构瓶颈。
优化内存访问模式,以最大化 HBM2e/HBM3 的吞吐量。
理解 CDNA 计算单元上的波前调度与占用率。
为向量和矩阵核心实现指令级优化。